检索结果

Select

1. 结合BERT和特征投影网络的新闻主题文本分类方法

张海丰, 曾诚, 潘列, 郝儒松, 温超东, 何鹏

《计算机应用》唯一官方网站 2022, 42 (4): 1116-1124. DOI: 10.11772/j.issn.1001-9081.2021071257

摘要（576）

HTML （37）

PDF （1536KB）（262）

针对新闻主题文本用词缺乏规范、语义模糊、特征稀疏等问题，提出了结合BERT和特征投影网络（FPnet）的新闻主题文本分类方法。该方法包含两种实现方式：方式1将新闻主题文本在BERT模型的输出进行多层全连接层特征提取，并将最终提取到的文本特征结合特征投影方法进行提纯，从而强化分类效果；方式2在BERT模型内部的隐藏层中融合特征投影网络进行特征投影，从而通过隐藏层特征投影强化提纯分类特征。在今日头条、搜狐新闻、THUCNews-L、THUCNews-S数据集上进行实验，实验结果表明上述两种方式相较于基线BERT方法在准确率、宏平均F1值上均具有更好的表现，准确率最高分别为86.96%、86.17%、94.40%和93.73%，验证了所提方法的可行性和有效性。

图表 | 参考文献 | 相关文章 | 多维度评价

Select

2. 结合广义自回归预训练语言模型与循环卷积神经网络的文本情感分析方法

潘列, 曾诚, 张海丰, 温超东, 郝儒松, 何鹏

《计算机应用》唯一官方网站 2022, 42 (4): 1108-1115. DOI: 10.11772/j.issn.1001-9081.2021071180

摘要（392）

HTML （14）

PDF （728KB）（208）

传统的机器学习方法在对网络评论文本进行情感极性分类时，未能充分挖掘语义信息和关联信息，而已有的深度学习方法虽能提取语义信息和上下文信息，但该过程往往是单向的，在获取评论文本的深层语义信息过程中存在不足。针对以上问题，提出了一种结合广义自回归预训练语言模型（XLNet）与循环卷积神经网络（RCNN）的文本情感分析方法。首先，利用XLNet对文本进行特征表示，并通过引入片段级递归机制和相对位置信息编码，充分利用了评论文本的语境信息，从而有效提升了文本特征的表达能力；然后，利用RCNN对文本特征进行双向训练，并在更深层次上提取文本的上下文语义信息，从而提升了在情感分析任务中的综合性能。所提方法分别在三个公开数据集weibo-100k、waimai-10k和ChnSentiCorp上进行了实验，准确率分别达到了96.4%、91.8%和92.9%。实验结果证明了所提方法在情感分析任务中的有效性。

图表 | 参考文献 | 相关文章 | 多维度评价

Select

3. 结合ALBERT和双向门控循环单元的专利文本分类

温超东, 曾诚, 任俊伟, 张

计算机应用 2021, 41 (2): 407-412. DOI: 10.11772/j.issn.1001-9081.2020050730

摘要（645）

PDF （979KB）（772）

随着专利申请数量的快速增长，对专利文本实现自动分类的需求与日俱增。现有的专利文本分类算法大都采用Word2vec和全局词向量（GloVe）等方式获取文本的词向量表示，舍弃了大量词语的位置信息且不能表示出文本的完整语义。针对上述问题，提出了一种结合ALBERT和双向门控循环单元（BiGRU）的多层级专利文本分类模型ALBERT-BiGRU。该模型使用ALBERT预训练的动态词向量代替传统Word2vec等方式训练的静态词向量，提升了词向量的表征能力；并使用BiGRU神经网络模型进行训练，最大限度保留了专利文本中长距离词之间的语义关联。在国家信息中心公布的专利数据集上进行有效性验证，与Word2vec-BiGRU和GloVe-BiGRU相比，ALBERT-BiGRU的准确率在专利文本的部级别分别提高了9.1个百分点和10.9个百分点，在大类级别分别提高了9.5个百分点和11.2个百分点。实验结果表明，ALBERT-BiGRU能有效提升不同层级专利文本的分类效果。

参考文献 | 相关文章 | 多维度评价

Select

4. 基于K均值聚类和多示例学习的图像检索方法

温超耿国华李展

计算机应用 2011, 31 (06): 1546-1548. DOI: 10.3724/SP.J.1087.2011.01546

摘要（1349）

PDF （609KB）（517）

针对基于对象的图像检索问题，利用K均值（K-means）聚类，提出了一种新的基于多示例学习（MIL）框架的图像检索算法KP-MIL。该算法在正包和负包组成示例集合聚类，获取潜在正示例代表和包结构特性数据，然后利用径向基核分别度量两者的相似性，最后利用alpha因子均衡两者相似性对核函数结果的影响。在标准对象图像检索集SIGVAL上进行实验，实验结果表明，该方法是有效的且性能优于其他同类方法。